Esta guía proporciona una serie de gráficos para realizar un Análisis Exploratorio de Datos (EDA) en diferentes niveles:
Análisis Unidimensional: Distribución de una sola variable.
Análisis Multivariado: Relación entre dos o más variables.
Visualización con ggplot2 para
explorar patrones en los datos.
Esta guía te ayudará a seleccionar el gráfico más adecuado según el tipo de variable analizada.
# 📌 Cargar librerías necesarias
library(here) # Manejo de rutas dinámicas
library(janitor) # Limpieza de nombres de columnas
library(summarytools) # Resumen estadístico detallado
library(ggplot2) # Gráficos
library(dplyr) # Manipulación de datos
library(plotly) # Gŕaficos Interactivos
# 📌 Configuración de gráficos globales
theme_set(theme_minimal())
source(here("reportes/Proy_Startup_Data/00_CONFIGURACION.r"))
# 📌 Cargar scripts de preprocesamiento
source(here("scripts/utils.r"))
source(here("scripts/1_preprocesamiento_esp_dataset.r"))
source(here("scripts/2_analisis_gráfico.r"))
📌 ¿Qué hace esta función?
✔ Limpia los nombres de las columnas. ✔ Convierte variables categóricas en factores. ✔ Filtra valores inválidos. ✔ Retorna un dataset listo para análisis.
# 📌 Cargar y preprocesar el dataset
dataset_startup <- preprocesar_datos(here("datasets/startup_data_limpio.csv"), "Startup Data")
## 📥 Cargando datos del proyecto: Startup Data
## 🧹 Realizando limpieza de datos...
## 📊 Aplicando preprocesamiento específico para Startup Data...
## ✅ Preprocesamiento completado para: Startup Data
El análisis unidimensional permite estudiar la distribución de una sola variable.
# Boxplot para número de empleados
p_boxplot_empleados <- crear_boxplot(
data = dataset_startup,
y = "employees",
title = "Distribución del Número de Empleados en Startups",
xlab = "Startups",
ylab = "Número de Empleados",
colores = "lightblue"
)
guardar_grafico(p_boxplot_empleados, here("reportes/Proy_Startup_Data/resultados_generados/boxplot_empleados.png"))
convertir_interactivo(p_boxplot_empleados)
# Histograma de financiamiento recibido
p_histograma_financiamiento <- crear_histograma(
data = dataset_startup,
x = "funding_amount_m_usd",
title = "Distribución del Financiamiento Recibido por Startups",
xlab = "Monto de Financiamiento (millones USD)",
ylab = "Frecuencia",
binwidth = 10,
colores = "blue"
)
guardar_grafico(p_histograma_financiamiento, here("reportes/Proy_Startup_Data/resultados_generados/histograma_financiamiento.png"))
convertir_interactivo(p_histograma_financiamiento)
# Distribución de startups por industria
p_barplot_industria <- crear_barplot(
data = dataset_startup,
x = "industry",
fill = "industry",
title = "Distribución de Startups por Industria",
xlab = "Industria",
ylab = "Número de Startups",
voltear = TRUE
)
guardar_grafico(p_barplot_industria, here("reportes/Proy_Startup_Data/resultados_generados/barplot_industria.png"))
convertir_interactivo(p_barplot_industria)
##5️⃣ Análisis Multivariado
El análisis multivariado permite explorar relaciones entre dos o más variables.
p_boxplot_financiamiento_industria <- crear_boxplot(
data = dataset_startup,
x = "industry",
y = "funding_amount_m_usd",
fill = "industry",
title = "Distribución del Financiamiento por Industria",
xlab = "Industria",
ylab = "Monto de Financiamiento (millones USD)",
rotar_x = TRUE
)
guardar_grafico(p_boxplot_financiamiento_industria, here("reportes/Proy_Startup_Data/resultados_generados/boxplot_financiamiento_industria.png"))
convertir_interactivo(p_boxplot_financiamiento_industria)
p_scatter_valuacion_vs_financiamiento <- crear_scatterplot(
data = dataset_startup,
x = "funding_amount_m_usd",
y = "valuation_m_usd",
title = "Relación entre Valuación y Financiamiento",
xlab = "Financiamiento Recibido (millones USD)",
ylab = "Valuación de la Startup (millones USD)"
)
guardar_grafico(p_scatter_valuacion_vs_financiamiento, here("reportes/Proy_Startup_Data/resultados_generados/scatter_valuacion_vs_financiamiento.png"))
convertir_interactivo(p_scatter_valuacion_vs_financiamiento)
p_barplot_exit_status <- crear_barplot(
data = dataset_startup,
x = "exit_status",
fill = "exit_status",
title = "Estado de Salida de Startups",
xlab = "Estado de Salida",
ylab = "Cantidad de Startups",
colores = c("Acquired" = "blue", "IPO" = "purple", "Private" = "gray")
)
guardar_grafico(p_barplot_exit_status, here("reportes/Proy_Startup_Data/resultados_generados/barplot_exit_status.png"))
convertir_interactivo(p_barplot_exit_status)
Este análisis gráfico ha permitido visualizar patrones clave en el éxito de las startups:
✅ El financiamiento y la valuación están fuertemente correlacionados.
✅ Algunas industrias, como FinTech y AI, reciben más financiamiento en promedio.
✅ Las startups con mayor market share tienden a encontrarse en regiones específicas.
✅ El número de startups rentables aún es bajo, indicando largos períodos de inversión antes de alcanzar sostenibilidad.